FILTER MODE ACTIVE

#длинный контекст

Найдено записей: 21

#длинный контекст16.11.2025

Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов

Cerebras представила MiniMax-M2-REAP-162B-A10B — 30% REAP-прюнинг экспертов уменьшает память без заметной потери качества на задачах кода, рассуждений и вызова инструментов.

#длинный контекст

Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов

Ant Group представляет Ling 2.0 — масштабируемая sparse MoE система рассуждений до 1T при 1/32 активации

Glyph превращает страницы в токены: визуальное сжатие 3–4× для миллионных контекстов

Zhipu GLM-4.6: 200K контекст, экономия токенов и открытые веса

oLLM: запуск LLM с 100K контекстом на 8 ГБ GPU за счет выгрузки памяти на SSD

Meta FAIR представила CWM — 32B LLM с открытыми весами, обученную предсказывать выполнение кода

Qwen3-Next-80B-A3B в FP8: гибридный MoE 80B/3B становится жизнеспособным на обычных GPU

IBM представила два компактных эмбеддинга Granite на базе ModernBERT с поддержкой длинного контекста

Rubin CPX: GPU Nvidia для генерации видео и кода в экза-масштабе

REFRAG от Meta: 16× больший контекст и до 31× быстрее декодирование RAG

Nemotron Nano 2: LLM с поддержкой 128K токенов и ускорением до 6× на одной A10G

AI-агенты в 2025: что работает, какие риски и как запускать

Крошечные титаны: Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 приносят 256K контекст на обычный железо

Qwen Представляет Qwen3-Coder-480B-A35B-Instruct: Самую Мощную Открытую Агентную Модель Для Кода

Microsoft Представляет Phi-4-mini-Flash-Reasoning: Быстрая и Компактная Модель для Сложных Задач с Длинным Контекстом

QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

Falcon-H1 от TII: гибридные модели Transformer-SSM для масштабируемого, многоязычного и долгоконтекстного ИИ

xGen-small от Salesforce: революция в корпоративном ИИ с эффективной обработкой длинного контекста

RWKV-X: Революция в моделировании длинных контекстов с помощью разреженного внимания и рекуррентной памяти

IBM Представляет Granite 4.0 Tiny: Компактная Открытая Модель для Длинных Контекстов и Инструкций

Переосмысление разреженного внимания: прорывы для эффективных больших языковых моделей с длинным контекстом